Introdução

Este projeto consiste em realizar uma EDA (Análise Exloratória dos Dados) a partir dos dados fornecidos pela Prosper. Esse conjunto de dados faz parte das recomendações da Udacity para este projeto.

A Prosper é uma empresa fundada em 2005 com o objetivo de facilitar empréstimos para o mercado dos Estados Unidos. Essa iniciativa já atingiu mais de 15 bilhões de dólares em empréstimos para mais de 920000 pessoas. Prosper

O conjunto de dados analisado neste projeto é fornecido por esta empresa e mais sobre o seu conteúdo será abordado futuramente.

Para esta análise serão necessárias as seguintes bibliotecas:

Iniciando a Análise

Primeiro é necessário carregar os dados a partir do csv. Neste projeto chamaremos estes dados de “ld” em referência a loan dataset para facilitar. Em seguida será exibida a estrutura desse conjunto de dados obtendo a quantidade de variáveis e de observações.

Como este conjunto de dados contém 81 variáveis, torna-se evidente que existem muitos dados. Então é importante decidir primeiro quais variáveis serão escolhidas para análise e em seguida realizar a limpeza dos dados.

Escolha e definição das variáveis e limpeza dos dados

Como eu não possuo conhecimento extenso sobre a área serão escolhidas variáveis que ao meu ver podem ser bastante úteis para a análise. Pode ser que variáveis importantes sejam deixadas de lado, mas a ideia aqui será descobrir a relação dessas variáveis em relação aos empréstimos. Dessa forma será possível retornar e alterar a escolha dessas variáveis caso se mostre necessário.

Será necessário consultar a definição das variáveis para que seja possível fazer a seleção.

Das 81 variáveis foram selecionadas 16 que serão trabalhadas na análise.

Ao observar a amostra dos dados podemos indicar que há quase 114000 observações, só que muitas delas parecem conter dados incompletos. Por este motivo iremos excluir entradas que possam estar faltando dados e possam compremeter a análise.

Essa limpeza foi capaz de reduzir o conjunto de dados para quase metade das observações, atingindo a marca de 77557 observações.

Análise Univariada

ListingCreationDate

Pode se observar que a quantidade de empréstimos foi aumentando ao longo do tempo, mas algo impactou esse crescimento no final de 2012 e começo de 2013.

Term

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   36.00   36.00   42.72   60.00   60.00

Pela análise estatística e do gráfico pode-se observar que a maior parte dos empréstimos possuem duração de 36 meses, seguido por 60 meses e uma pequena parcela de 12 meses. Os empréstimos de 36 meses representam 68.3% de todos os empréstimos.

LoanStatus

##              Cancelled             Chargedoff              Completed 
##                      0                   4445                  17703 
##                Current              Defaulted FinalPaymentInProgress 
##                  52478                    885                    189 
##   Past Due (>120 days)   Past Due (1-15 days)  Past Due (16-30 days) 
##                     14                    722                    242 
##  Past Due (31-60 days)  Past Due (61-90 days) Past Due (91-120 days) 
##                    327                    275                    277

Pode-se observar que a maior parte dos empréstimos se enquadram em “Current” e “Completed”. Dessa forma, os dados dos outros status ficam reduzidos e difíceis de serem observados. Portanto, a seguir esses dois status serão excluídos para que melhore a observação da proporção dos outros status.

Filtrando as variáveis “Current” e “Completed” pode-se observar que o Status “Chargedoff” também possui uma grande quantidade de empréstimos.

BorrowerRate

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0400  0.1349  0.1845  0.1934  0.2524  0.3600

Pode-se observar existem alguns valores mais presentes que se destacam. Porém a distribuição mais popular se encontra entre 10 e 20%.

EstimatedReturn

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.18160  0.07408  0.09060  0.09529  0.11500  0.26670

Esse gráfico consegue reprentar com certa fidelidade uma relação de distribuição normal com relação aos dados de retorno estimado para cada empréstimo realizado. Com a maior concentração de seus valores em cerca de 9%. Curioso destacar que há retornos estimados com valores negativos.

ProsperScore

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.000   6.000   6.062   8.000  11.000

Essa relação também parece representar uma distribuição normal. Como se trata de uma avaliação própria da empresa será mais interessante a exploração futura com relação a outras variáveis para determinar seu impacto.

ListingCategory

Esta categoria é tratada de forma diferente, porém vale lembrar que apesar de estarmos lidando com uma lista enumerada segue a seguir cada um de suas respectivas categorias:

0 - Not Available
1 - Debt Consolidation
2 - Home Improvement
3 - Business
4 - Personal Loan
5 - Student Use
6 - Auto
7 - Other
8 - Baby and Adoption
9 - Boat
10 - Cosmetic Procedure
11 - Engagement Ring
12 - Green Loans
13 - Household Expenses
14 - Large Purchases
15 - Medical/Dental
16 - Motorcycle
17 - RV
18 - Taxes
19 - Vacation
20 - Wedding Loans

Consolidação de Crédito é o principal motivo para que as pessoas busquem empréstimos na Prosper. Dessa forma a relação das outras categorias fica nebulosa. Por isso será criado um novo gráfico ignorando a Consolidação de Crédito para que seja possível comparar a relação com as outras categorias.

Agora já é possível observar que o segundo motivo para o empréstimo na Prosper é encaixado na categoria “Outros” o que é razoável já que essa é uma categoria genérica que engloba diversas outras categorias não catalogadas. Em seguida é “Melhoria Domiciliar”, “Negócios” e “Automóveis”.

Occupation

Dentre os resultados obtidos será feita uma filtragem com as profissões com “Others” , “Professional” e "" por serem ambíguas.

Em ordem decrescente, a maior quantidade de profissionais que pegam empréstimos da Prosper são Executivos, Programadores e Professores, respectivamente.

EmploymentStatus

##                    Employed     Full-time Not available  Not employed 
##             0         65884          7585             0             1 
##         Other     Part-time       Retired Self-employed 
##          3526           199           320            42

Pode-se verificar que a maior parte dos empréstimos foram feitos com pessoas que estavam atualmente empregadas no memomento do empréstimo.

CreditScoreRangeLower e CreditScoreRangeUpper

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     600     660     700     699     720     880

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     619     679     719     718     739     899

Observando os gráficos pode-se observar que a distribuição é muito semelhante porém com um breve deslocamento a direita em relação a Variação mais alta. O que faz sentido por que os dois gráficos tratam de uma mesma variável porém com extremos diferentes. Pode-se evidenciar também que a maior concentração de pontuação mais baixa fica em torno do valor de 700 e o mais alto em torno de 719.

CurrentDelinquencies

Pode-se observar que a maior concentração de pessoas com muitas dívidas se encontra com poucas contas atrasadas. Com processo de filtragem pode-se observar melhor a variação com mais contas.

A filtragem ajuda a mostrar que a maior quantidade de pessoas possui menos contas. São poucas pessoas que estão atrasadas e possuem diversas contas.

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0      0.0      0.0    966.5      0.0 463881.0

Fazendo uma breve análise pode-se analisar que a maior parte dos clientes se concentra em clientes não atrasados.

Tem-se cerca de 13.1% dos clientes atrasados.

Fazendo uma filtragem com apenas atrasados em mais de 10000 dólares é possível ver que tratam-se de poucas pessoas. Portanto a grande concentração de pessoas se destina a dívidas menores que 10000 dólares.

DebtToIncomeRatio

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.1500  0.2200  0.2588  0.3200 10.0100

A maior parte dos clientes possui uma proporção de dívida e renda de 0.22%. Salvo alguma exceções. No gráfico torna-se difícil de enxergar essa relação. Portanto, será utilizada uma tranformação logarítmica para facilitar a visualização deste outros casos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.1500  0.2200  0.2588  0.3200 10.0100

A situação de análise se restringe a valores próximos de 0.22%, mas não é um fator limitante. Existindo casos em que essa razão pode ser extrapolada.

StatedMonthlyIncome

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.2   3533.3   5000.0   5963.5   7166.7 483333.3

Utilizando um corte máximo de 20000 mil dólares com renda mensal declarada gera-se o gráfico acima. COm os dados fornecidos pode-se afirmar que a maior concentração de renda está em torno de 5000 mil dóalres mensais.

MonthlyLoanPayment

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0   158.5   256.4   295.8   392.3  2251.5

A maior parte das dívidas mensais, no entanto, giram em torno de 160 e 300 dólares mensais. Que são valores aceitáveis quanto a possibilidade de pagamento.

Análise Bavariada

Encontrando Correlações

Para analisar as correlações para a análise bivariada serão feitos alguns testes antes de decidir quais relações serão aprofundadas a seguir.

Correlações:

  • BorrowerRate e Estimated Return: 0.8267322
  • ProsperScore e CreditScoreRangeLower: 0.3870006
  • ProsperScore e CreditScoreRangeUpper: 0.3870006

Muitas das outras comparações apontaram valores de pontuação de correlação muito baixas e foram descartadas e outras utilizam tipos qualitativos e não quantitativos.

Portanto algumas das análises serão feitas de forma arbitrária para analisar a relação de cada variável.

BorrowerRate e EstimatedReturn

Há dois grandes padrões observados com estes dados. O primeiro deles é que as Taxas de Empréstimo e O Retorno estimado seguem camadas lineares e paralelas de forma bastante sutil. Enquanto ao mesmo tempo há uma concentração bastante grande de valores acumulados e com certa divergência de valores de Retorno Estimado entre 0.03 e 0.11 .

ListingCategory e Occupation

O que mais se destaca por esta análise é que o fator mais relevante para empréstimo é a categoria delas, que seguem o mesmo padrão para as mais diversas profissões em maior ou menos intensidade. Vale destacar que as profissões “Professional” e “Others” por serem mais genéricas e possuirem diversos dados com esta definiçãpo, apresenta uma forte marcação. Outra observação é a de que Estudantes de uma forma geral não possuem muitos empréstimos. Muito provavelmente por motivos financeiros, já que ao estudar torna-se menos propenso a dividir o tempo de dedicação com algum a atividade remunerada que garanta o cobrimento das parelas de um empréstimo. Por outro lado, Juízes, Investidores também são menos propensos a terem empréstimos. Por sua vez, acredito que pela natureza de se tratar de empregos que recebem alta remuneração há a menor busca de empréstimos.

Term e DebtToIncomeRatio

Nos 3 cenários observam-se características. A primeira é que a maior parte dos mutuários com tempo de empréstimo de 12 meses também possuem uma taxa menor de Dívida por Renda, o que significa que há uma relação de capacidade financeiro de prover o pagamento da dívida. A segunda é a variação gradual de Taxa de Dívida por Renda. Sendo este o caso mais com maior ocorrências e por último, o terceiro cenário em que há 60 meses de tempo de empréstimo, mas que aprensenta também uma taxa de Dívida por Renda maior.

StatedMonthlyIncome e ProsperScore

Pode-se observar que há uma leve inclinação para que uma quantidade maior de Renda Mensal Declarada ajude a ter uma pontuação maior na Prosper, mas ainda devem ser feitos análises mais extensivas para que possam se afirmar quaisquer conclusões sobre o real impacto desta variável.

ProsperScore e CreditScoreRangeLower

Esta análise também mostra uma leve relação entre a CreditScoreRangeLower e a ProsperScore com uma leve tendência de cresciemnto.

ProsperScore e CreditScoreRangeUpper

De forma análoga, a mesma relação pode ser observada quando se tratam das variáveis ProsperScore e CreditScoreRangeUpper.

Profissões e Pontuação Prosper

Uma breve análise consegue destacar algumas carreiras que conseguem obter pontuações maiores na Prosper dentre elas destacam-se Programador, Engenheiro Eletricista, Advogado, Doutor, Farmacêutico, Arquiteto, Investidor e Juíz. Em geral tratam-se de profissões bem remuneradas, o que pode ser um fator determinante para esta análise.

Análise Multivariada

Estimated Return, BorrowerRate e ProsperScore

Comparando agora a análise bivariada de Borrower Rate e Estimated Return com o ProsperScore é possível enxergar uma gradação bastante interessante para as relações de Borrower Rate e Estimated Return. Pode-se concluir que um dos fatores mais relevantes para a diferenciação é a nota da ProsperScore que concentra maiores pontuações quanto maior a Estimativa de Retorno, o que também viabiliza uma Taxa de Empréstimo Menor.

DebtToIncomeRatio, BorrowerRate, ProsperScore

Este gráfico apresenta uma relação entra a Razão da Dívida por Renda Mensal e a Taxa de Empréstimo com o gradiente de cor repsrentando a ProsperScore. Essa relação mostra que quanto menor a Taxa de Empréstimo e da Razão da Dívida por Renda Mensal maior a ProsperScore.

StatedMonthlyIncome, EstimatedReturn e ProsperScore

Nesta análise pode-se chegar a conclusão que valores de taxa de retorno negativas impactam na ProsperScore significativamente. Não significa que quanto maior a taxa de retorno maior a pontuação da ProsperScore, como pode-se evidenciar pela nuvem mesclada de dados entre taxas superiores a 0 e inferiores a 0.2. Porém, para taxas acima de 0.2 a ProsperScore sempre apresenta boas pontuações. Agora sobre a Renda Mensal Declarada não parece ter tantra influência na ProsperScore.

ListingCategory, DebtToIncomeRatio, ProsperScore

Esta análise não consegue atingir nenhuma conclusão por apresentar uma distribuição bastante bagunçada da ProsperScore.

DebtToIncomeRatio, Occupation, ProsperScore

Uma breve análise indica que a Razão da Dívida e Renda Mensal é muito mais influente na ProsperScore, já que dentre as mais diferentes profissões não há tanta variação quanta a variação de pontuações.

Gráficos Finais e Resumo

Relação da Razão da Dívida por Renda Mensal por Taxa de Empréstimo para a Prosper Score

Este gráfico envolve a relação entre a Razão da Dívida por Renda Mensal, que ao longo de toda esta análise foi considerada uma variável bastante importante para determinar a possibilidade de cada mutuário ser capaz de quitar seu empréstimo, com a Taxa de Empréstimo, que é a taxa determinada para quem está emprestando este dinheiro ao mutuário. Essa relação consegue criar um gradiente com a pontuação da Prosper para cada mutuário.

A princípio é possível enxergar que há uma maior concentração de pontuação mais alta ao reduzir a Taxa de Empréstimo. Porém, não se torna distinto tão facilmente se a Razão de Dívida por Renda Mensal também influencia tanto a Pontuação da Prosper. Por isso, torna-se necessário o uso da reta para enxergar a tendência desses dados.

A conclusão é que maior será a Pontuação da Prosper quanto menor for a a razão da dívida por renda mensal do mutuário e quanto menor a taxa de empréstimo.

Renda Mensal Declarada, Estimativa de Retorno, ProsperScore

A análise de Renda Mensal Declarada e Estimativa de Retorno, apresetaram resultados bastante interessantes para a análise do Score da Prosper. Inicialmente podemos afirmar que não há influência da relação das duas variáveis em relação à pontuação da Prosper. Porém, olhando cuidadosamente, é possível enxergar que existem valores limitantes para a estimativa de retorno que criam faixas que podem criar separações entre 3 áreas distintitas. A primeira faixa delimita uma taxa de retorno acima ao valor de 0.18 que predominantemente possui apenas mutuários com pontuações mais altas na ProsperScore. A faixa inferior de -0.02 para baixo apresenta predominantemente mutuários com baixas pontuações na ProsperScore. Enquanto a camada central se encontra uma faixa com valores distintos e bastante misturados entre si. Sem poder afirmar uma relação com a renda mensal declarada. Muito provavelmente por ser muito mais provável de se determinar uma relação bruta da pontuação da Prosper quando comapra ao gráfico da análise anterior, já que estaria lidando com a variável em função da Razão entre a Dívida e a Renda mensal do mutuário. Portanto, maior renda não significa nada para a Pontução da Prosper, mas sim a relação dessa renda com a dívida em si.

DebtToIncomeRatio, Occupation, ProsperScore

A análise de Profissões por Renda Mensal Declarada vai possuir uma certa distribuição que acompanhará cada Profissão. Aglomerando essas informações com a pontuação da Prosper pode-se observar que maiores pontuações da Prosper estão distribuídas entre todas as profissões porém, algumas concentram uma quantidade maior. Era de se esperar que a Razão da Dívida e Renda Mensal fossem fatores fortes para essa pontuação, porém, pode-se enxergar que em algumas profissões existem mutuários com essa razão próxima de 0.2 que também aprensentam pontuações altas na Prosper.

Reflexão

Este projeto foi bastante interessante e tangencialmente incentiva o estudante a compreender os dados que estão sendo trabalhados. Por este mesmo motivo, a primeira dificuldade encontrada foi entender cada variável de maneira correta, já que eu não possuo background em como empréstimos funcionam, isso aliado aos termos todos em inglês agregou muito conhecimento buscando entender como tudo funcionava. Uma grande ajuda foi a planilha explicativa descrevendo cada variável e suas peculiaridades.

Em seguida foi um grande exercício lidar com este número de variáveis com tantos tipos diferentes e buscar compreender a melhor forma de lidar com as variáveis escolhidas.

Resumo

  • A análise do conjunto de dados selecionado inclui 77557 observações e contou com 16 variáveis.

Descobertas

  • Desde a coleta desses dados em 2009, a Prosper foi gradativmente aumentando sua quantidade de empréstimo havendo uma queda entre o fim de 2012 e começo de 2013, mas apresentando um grande crescimento a partir desse período.

  • A maior parte dos empréstimos tem duração de 36 meses, representando sozinho 68.3% de todos os empréstimos.

  • O retorno estimado tem sua maior concentração em valores próximos a 9%. A variação de retorno estimado chega a alcançar valores negativos, implicando prejuízo.

  • Cerca de 85% dos mutuários estavam empregados no momento do empréstimo, quase 10% estava em um emprego de período integral e apenas 1 das 77557 observações estava desempregado.

  • Apesar de apresentar valores distintos, a tendência dos dados da Pontuação de Crédito e a Pontuação da Score apresentam uma distribuição bastante similar.

  • A Razão de Dívida por Renda é obtida dividindo a parcela mensal do dívida do empréstimo pela renda mensal declarada. Dessa forma obtemos um valor que indica quanto essa parcea representa dos gastos mensais. Metade dos mutuários varia esse valor entre 15% e 32% da renda mensal, mas existem casos que chegam a superar o valor de sua renda mensal.

  • A distribuição dos dados para Renda Mensal Declarada é bastante variada. Com base na análise desse conjunto de dados temos uma mediana de 5000 dólares.

  • Por outro lado a mediana das parcelas mensais se encontra em 254.6 dólares.

  • A taxa de retorno estimado e o retorno estimado possuem uma forte correção.

  • Entre todas as categorias de empréstimo a Consolidação de Débito é a razão principal para os empréstimos, independente da Renda Mensal Declarada ou da Profissão do mutuário.

  • A Razão de Dívida por Renda é importante para determinar casos particulares. Principalmente em relação àqueles de tempo de empréstimo de 12 meses, há uma concentração para aqueles que possuem essa razão baixa. Para razões mais altas, o tempo de empréstimo tende a se encaixar em 36 meses ou 60 meses.

  • Existem algumas profissões como Programador, Engenheiro Eletricista, Advogado, Médico, Farmacêutico, Arquiteto, Investidor e Juíz que tentem a ter pontuações pela Prosper maiores que a média.

Trabalhos futuros

Agora que o processo de análise chegou ao fim sobra um pouco de curiosidade de outras conclusões que poderiam ser obtidas lidando com mais variáveis. Das 81 variáveis presentes no conjunto de dados foram utilizadas apenas 16 delas. Dessa forma sobram muitas possibilidades de análises que poderiam ser feitas.

Dentre as formas que pdoeriam ser abordadas para enriquecer este trabalho seguem algumas sugestões: